Zero-Shot CoT論文
https://scrapbox.io/files/657c49248d839800245ea3b9.png
論文情報
タイトル:Large Language Models are Zero-Shot Reasoners
著者:Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa
所属:東大松尾研、Google Research
論文のポイント
https://scrapbox.io/files/65c4262430a88e00257499e6.png
残りの2つの算数推論タスク(SingleEqおよびAddSub)において同等だったが、これは簡単すぎて多段階の推論を必要としないためであろう。
常識推論タスクでは、Zero-shot-CoTはパフォーマンスの向上を提供しなかった。
https://scrapbox.io/files/65c427592abe370026b8ecba.png
こちらのTable2を見ても、ただのZero-ShotやただのFew-Shotなどの従来のプロンプトより、CoTをさせた方が圧倒的にスコアが良くなるとわかる。(1つ目のブロックと2つ目のブロックの結果を参照)
https://scrapbox.io/files/65c42a27ec168f002591282a.png
モデルサイズが大きくないと、CoTを加えても効果がないと思われる。
https://scrapbox.io/files/657cd1ddfc87d6002496959a.png
620億パラメーター以下ではほとんど変わらない
GPT-3.5は、1750億、GPT-4は、5000億以上と言われているため、ChatGPTを使う上では有効そう。
CoTなしの数学推論タスクでは、モデルのサイズをいくら大きくしても、効果は微々たるもの
https://scrapbox.io/files/65c42b654dcaa400243541a6.png
「Let's think step by step」の裏側で、2段階のプロンプトが発動している
reasoning extraction (推論の抽出)とanswering extraction (回答の抽出)
論文を読んで感じたこと
日本人が書かれた論文で、とても読みやすいし、成果がすごい
この論文ではGPT-3だから、モデルの違いになりそう。 ChatGPTでは暗黙のCoTが関与していて、二重で指示することで性能が下がると
概要
事前訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)の多くのサブフィールドで広く使用され、特定の例を用いたFew-Shotの学習において優れていると一般に認識されています。特に、CoT (Chain-of-Thought)は、ステップバイステップの解答例を通じて複雑な多段階推論を引き出すための最近の技術であり、LLMの標準的な スケーリング則に従わない困難なシステム2のタスクである算数や記号的推論において、最先端のパフォーマンスを達成しました。これらの成功はしばしばLLMのFew-Shotの学習能力に帰せられますが、私たちは「一歩ずつ考えてみよう」というフレーズを各回答の前に単純に追加することで、LLMがゼロショットの推論者としてもまずまずの能力を持つことを示します。実験結果は、私たちのゼロショットCoTが、多様なベンチマーク推論タスク(算数(MultiArith, GSM8K, AQUA-RAT, SVAMP)、記号的推論(Last Letter, Coin Flip)、その他の論理的推論タスク(Date Understanding, Tracking Shuffled Objects))において、手作業で作成されたFew-Shotの例を一切使用せず、同じ単一のプロンプトテンプレートを使用して、Zero-ShotLLMのパフォーマンスを大幅に上回ることを示しています。例えば、大規模InstructGPTモデル(text-davinci002)を使用してMultiArithの正確性を17.7%から78.7%に、GSM8Kを10.4%から40.7%に向上させるとともに、別の市販の大規模モデルである540BパラメータのPaLMでも同様の改善の幅を実現しました。この単一プロンプトが非常に多様な推論タスクにわたって汎用性を持つことは、LLMの未開拓かつ未研究の基本的なゼロショット能力を示唆しており、単純なプロンプティングによって高レベルの多タスク広範な認知能力が引き出される可能性があることを示唆しています。私たちの研究は、難しい推論ベンチマークのための最小限で最も強力なゼロショットの基準としてのみならず、ファインチューニングデータセットやFew-Shotの例を作成する前に、LLM内に隠された膨大なゼロショット知識を慎重に探求し分析することの重要性を強調することを願っています。 1 はじめに
言語モデルのサイズを拡大することは、近年の自然言語処理(NLP)における革命の主要な要素でした。大規模言語モデル(LLM)の成功は、しばしば(文脈内の)少数ショットまたはゼロショット学習に帰されます。これは、モデルを数例(少数ショット)やタスクを説明する指示(ゼロショット)に基づいて単純に条件付けすることで、様々なタスクを解決できることを意味します。言語モデルを条件付ける方法は「プロンプティング」と呼ばれ、プロンプトを手動または自動で設計することが、NLPの熱い話題となっています。直感的で単一ステップのシステム1タスクにおけるLLMの優れたパフォーマンスとは対照的に、100B以上のパラメータを持つ言語モデルでさえ、遅く複数ステップの推論を必要とするシステム2タスクに苦戦していました。この欠点に対処するため、Wei et al.【2022】、Wang et al.【2022】は、従来の質問と回答の例ではなく、ステップバイステップの推論例をLLMに供給する思考の連鎖プロンプティング(CoT)を提案しました(Figure 1-aを参照)。このような思考の連鎖のデモンストレーションは、複雑な推論を複数の簡単なステップに分解する推論パスをモデルが生成するのを促進します。特にCoTでは、推論性能がスケーリング法則により適合し、言語モデルのサイズとともに飛躍的に向上します。例えば、540BパラメータのPaLMモデル【Chowdhery et al., 2022】と組み合わせることで、CoTプロンプティングは、いくつかのベンチマーク推論タスクにおいて、標準の少数ショットプロンプティングを大幅に上回る性能を示しました(例:GSM8Kでは17.9%→58.1%)。 https://scrapbox.io/files/65c41d01c1027d0026f3c3d4.png
CoTプロンプティング【Wei et al., 2022】の成功は、多くの他のタスク特化型プロンプティング作業と同様に、しばしばLLMの少数ショット学習能力(GPT-3論文)に帰されますが、私たちはLLMがシンプルなプロンプト「一歩ずつ考えよう」を追加することで、各質問に対して一歩ずつ考えることを促進し、標準のゼロショットアプローチが失敗する問題で正しい答えに到達する、妥当な推論パスをゼロショット方式で生成できる優れたゼロショット推論者であることを示します(Figure 1を参照)。このシンプルさにもかかわらず、私たちのZero-shot-CoTは汎用的でタスク非依存であり、多くの先行研究のタスク特化型プロンプトエンジニアリングが例(少数ショット)やテンプレート(ゼロショット)【Liu et al., 2021b】の形式であるのに対し、算数(MultiArith、GSM8K、AQUA-RAT、そしてSVAMP)、記号的推論(Last Letter Concatenation、Coin Flip)、常識的推論(CommonSenseQAとStrategyQA)、その他の論理的推論タスク(Date UnderstandingとBIG-benchからのシャッフルされたオブジェクトの追跡)を含む様々な推論タスクにおいて、タスクごとにプロンプトを変更することなく、ステップバイステップの回答を促進できます。私たちは、他のプロンプティングのベースラインと比較してZero-shot-CoTを実証的に評価します。 私たちのZero-shot-CoTは、慎重に作成されたタスク特化型のステップバイステップの例を持つFew-shot-CoTよりも性能が劣りますが、Zero-shot-CoTはゼロショットのベースラインと比較して著しいスコアの向上を達成します(例:MultiArithでは17.7%から78.7%へ、GSM8Kでは10.4%から40.7%へ)大規模なInstructGPTモデル(text-davinci-002)で。また、別の市販の大型モデル、540BパラメータのPaLMを使用してZero-shot-CoTを評価し、MultiArithとGSM8Kで同様の改善の大きさを示します。重要なことに、私たちの単一の固定プロンプトを使用すると、ゼロショットLLMは、Few-shot-CoTベースラインのそれと比較可能なはるかに良いスケーリング曲線を持っています。また、Few-shot-CoTが多段階推論プロンプトの人間によるエンジニアリングを必要とする一方で、プロンプト例の質問タイプとタスク質問タイプが一致しない場合、そのパフォーマンスが低下することを示し、タスクごとのプロンプトデザインに対する高い感度を示唆しています。対照的に、この単一プロンプトの多様な推論タスクに対する汎用性は、LLMの未開拓かつ未研究のゼロショットの基本的能力、例えば一般的な論理的推論【Chollet, 2019】のような高次の広範な認知能力を示唆しています。LLMの活発な分野は、優れた少数ショット学習者【Brown et al., 2020】の前提から始まりましたが、私たちの研究がこれらのモデル内に隠された高次およびマルチタスクのゼロショット能力を明らかにするためのさらなる研究を促進することを願っています。
2 背景
この作業の基礎を形成する2つの核心的な予備概念、大規模言語モデル(LLM)とプロンプティング、および多段階推論のための思考の連鎖(CoT)プロンプティングについて簡単にレビューします。
大規模言語モデルとプロンプティング
言語モデル(LM)は、テキスト上の確率分布を推定しようとするモデルです。最近、モデルサイズの拡大(数百万【Merity et al., 2016】から数億【Devlin et al., 2019】、数千億【Brown et al., 2020】パラメータ)とデータの拡大(例:ウェブテキストコーパス【Gao et al., 2020】)により、事前訓練された大規模言語モデル(LLM)は、多くの下流NLPタスクで非常に適応性が高くなりました。古典的な「事前訓練と微調整」パラダイム【Liu et al., 2021b】に加えて、100B+パラメータにスケールされたモデルは、文脈内学習によって、テキストやテンプレートとして知られるプロンプトを使用して、望ましいタスクのための回答を強力に導く出力を生成する、という特性を示し、「事前訓練とプロンプト」の時代を開始しました【Liu et al., 2021a】。この作業では、数個のタスク例に明示的に条件付けされたプロンプトを少数ショットプロンプトと呼び、テンプレートのみのプロンプトをゼロショットプロンプトと呼びます。
思考の連鎖プロンプティング
多段階の算数および論理的推論ベンチマークは、大規模言語モデルのスケーリング法則にとくに課題を提起しました【Rae et al., 2021】。思考の連鎖(CoT)プロンプティング【Wei et al., 2022】は、少数ショットプロンプティングの一例として、少数ショットの例の答えをステップバイステップの答えに変更するという単純な解決策を提案し、これらの難しいベンチマーク全体で顕著なパフォーマンスの向上を達成しました、特にPaLM【Chowdhery et al., 2022】のような非常に大きな言語モデルと組み合わせた場合には。図1の上段は、標準の少数ショットプロンプティングと(少数ショットの)CoTプロンプティングを対比しています。特筆すべきは、少数ショット学習がそのような困難なタスクに取り組むための前提とされており、ゼロショットのベースラインパフォーマンスは元の研究【Wei et al., 2022】でさえ報告されていないことです。私たちの方法と区別するために、この作業ではWei et al.【2022】をFew-shot-CoTと呼びます。
3 ゼロショットの思考の連鎖
私たちは、思考の連鎖推論のためのゼロショットテンプレートベースのプロンプティングであるZero-shot-CoTを提案します。これは、元の思考の連鎖プロンプティング【Wei et al., 2022】とは異なり、ステップバイステップの少数ショットの例を必要とせず、ほとんどの先行テンプレートプロンプティング【Liu et al., 2021b】とは異なり、本質的にタスク非依存であり、単一のテンプレートで幅広いタスクにわたるマルチホップ推論を引き出します。私たちの方法の核心的なアイデアはFigure 1で説明されているように単純で、「一歩ずつ考えよう」というようなテキスト(表4を参照)を追加して、ステップバイステップの推論を抽出します。
https://scrapbox.io/files/65c4203cfa8e4a0025bb79f8.png
3.1 二段階プロンプティング
Zero-shot-CoTは概念的には単純ですが、推論と回答の両方を抽出するために二度プロンプティングを使用します。これはFigure 2で説明されています。対照的に、ゼロショットのベースライン(Figure 1の左下を参照)は既に「答えは」という形式のプロンプティングを使用して、正しい形式での回答を抽出しています。少数ショットプロンプティング、標準またはCoTは、そのような形式で答えを終わらせるように少数ショットの例の答えを明示的に設計することで、そのような回答抽出プロンプティングの必要を回避します(Figure 1の右上と左上を参照)。要約すると、Few-shot-CoT【Wei et al., 2022】はタスクごとに特定の回答形式を持つ少数のプロンプト例を慎重に人間が設計する必要がありますが、Zero-shot-CoTはエンジニアリングが少なくて済みますが、LLMを二度プロンプティングする必要があります。
https://scrapbox.io/files/65c420ecb4bbd200248d9417.png
1回目のプロンプト:推論抽出
qこのステップでは、まず入力問題xを単純なテンプレート「Q: 【X】. A: 【T】」を使用してプロンプトx₀に変更します。ここで【X】はxのための入力スロット、【T】は質問xに答えるための思考の連鎖を抽出するための手作りのトリガー文tのためのスロットです。例えば、「一歩ずつ考えよう」をトリガー文として使用した場合、プロンプトx₀は「Q: 【X】. A: 一歩ずつ考えよう。」になります。より多くのトリガー例については表4を参照してください。プロンプトされたテキストx₀はその後、言語モデルに供給され、続く文zを生成します。どのデコーディング戦略も使用できますが、単純さのためにこの論文全体で貪欲なデコーディングを使用しました。
2回目のプロンプト:
回答抽出 二番目のステップでは、生成された文zとプロンプトされた文x₀を使用して、言語モデルから最終回答を抽出します。具体的には、「【X0】 【Z】 【A】」として3つの要素を単純に連結します:1回目のプロンプトのための【X0】、最初のステップで生成された文【Z】、そして回答を抽出するためのトリガー文【A】です。このステップのプロンプトは自己増強されており、同じ言語モデルによって生成された文zを含むプロンプトです。実験では、回答形式に応じてわずかに異なる回答トリガーを使用します。例えば、多肢選択式QAには「したがって、AからEまでの中で、答えは」と使用し、数値回答が必要な数学問題には「したがって、答え(アラビア数字)は」と使用します。回答トリガー文のリストについては、付録A.5を参照してください。最終的に、言語モデルにプロンプトされたテキストを入力として供給し、文ˆyを生成して最終回答を解析します。パーサーの詳細については、§4の「回答クレンジング」を参照してください。
4 実験
タスクとデータセット
私たちは、算数、常識、象徴的、その他の論理的推論タスクの4つのカテゴリーから12のデータセットで提案を評価します。各データセットの詳細な説明については、付録A.2を参照してください。
算数推論については、次の6つのデータセットを検討します:(1)SingleEq、(2)AddSub、(3)MultiArith、(4)AQUARAT、(5)GSM8K、および(6)SVAMP。最初の3つは、古典的なMath World Problem Repository【Koncel-Kedziorski et al., 2016】から、最後の3つは、より最近のベンチマークからです。SingleEqとAddSubは、タスクを解決するために多段階の計算を必要としない、より簡単な問題を含んでいます。MultiArith、AQUA-RAT、GSM8k、およびSVAMPは、解決するために多段階の推論を必要とする、より挑戦的なデータセットです。 常識推論には、CommonsenseQAとStrategyQAを使用します。CommonsenseQAは、しばしば事前知識に基づく推論を必要とする複雑なセマンティクスを持つ質問を尋ねます【Talmor et al., 2019】。StrategyQAは、モデルに質問に答えるための暗黙のマルチホップ推論を推測させることを要求します【Geva et al., 2021】。 記号的推論には、Last Letter ConcatenationとCoin Flipを使用します。Last Letter Concatenationは、モデルに各単語の最後の文字を連結させます。各サンプルにはランダムに選択された4つの名前を使用しました。Coin Flipは、人々がコインを裏返すかどうかに関係なく、コインがまだ表向きかどうかをモデルに答えさせます。私たちは、裏返すか裏返さないかの試行を4回行うサンプルを作成しました。これらのタスクは人間にとっては簡単ですが、LMは通常、平坦なスケーリング曲線を示します。 その他の論理的推論タスクには、BIG-benchの取り組み【Srivastava et al., 2022】から2つの評価セットを選択します:Date Understandingとシャッフルされたオブジェクトの追跡。日付理解は、モデルに文脈から日付を推測させます。シャッフルされたオブジェクトの追跡は、初期状態とオブジェクトのシャッフルのシーケンスが与えられたオブジェクトの最終状態を推測するモデルの能力をテストします。私たちは、シャッフルされた3つのオブジェクトを追跡するデータセットを実験に使用しました。 モデル
合計で17のモデルで実験を行いました。主な実験は、InstructGPT(text-ada/babbage/curie/davinci-001およびtext-davinci-002)、オリジナルのGPT-3(ada、babbage、curie、davinci)、およびPaLM(8B、62B、540B)で行われました。さらに、モデルスケーリング研究のために、GPT-2、GPT-Neo、GPT-J、T0、およびOPTを使用しました。LMのサイズは0.3Bから540Bの範囲です。標準(例:GPT-3およびOPT)および指示に従うバリアント(例:Instruct-GPT3およびT0)の両方を含みます。モデルの詳細な説明については、付録A.3を参照してください。特に明記されていない限り、実験全体でtext-davinci-002を使用します。 ベースライン
私たちは、Zero-shot-CoTを主に標準のゼロショットプロンプティングと比較して、その思考の連鎖推論の有効性を検証します。ゼロショットの実験には、Zero-shot-CoTと同様の回答プロンプトがデフォルトとして使用されます。詳細については、付録A.5を参照してください。LLMの推論タスクにおけるゼロショット能力をよりよく評価するために、私たちの方法を、同じ文脈内の例を使用して【Wei et al., 2022】からのFew-shotおよびFew-shot-CoTベースラインと比較します。実験全体で、すべての方法にわたって貪欲なデコーディングを使用します。ゼロショットアプローチの結果は、したがって決定論的です。少数ショットアプローチについては、文脈内の例の順序が結果に影響を与える可能性があるため【Lu et al., 2022】、公平な比較のためにすべての方法とデータセットにわたって固定されたシードで各実験を一度だけ実行します。Wei et al.【2022】は、例の順序がCoT実験で大きなバリアンスを引き起こさないことを示しました。
回答のクレンジング
モデルが回答抽出によりテキストを出力した後(§3および図2を参照)、私たちの方法は、最初に回答形式を満たす回答テキストの部分のみを選びます。例えば、算数タスクで回答プロンプティングが「おそらく375と376」と出力した場合、最初の数字「375」を抽出してモデルの予測として設定します。複数選択肢の場合、最初に遭遇した大文字を予測として設定します。詳細については、付録A.6を参照してください。標準のゼロショット方法は同じアイデアに従います。Few-shotおよびFew-shot-CoT方法については、【Wang et al., 2022】に従い、まずモデル出力から「答えは」の後の回答テキストを抽出し、同じ回答クレンジングを適用して回答テキストを解析します。モデル出力に「答えは」が見つからない場合は、テキストの後ろから検索し、回答形式を満たす最初のテキストを予測として設定します。
4.1 結果
Zero-shot-CoT対ゼロショット
表1は、私たちの方法(Zero-Shot CoT)と標準のゼロショットプロンプティング(ゼロショット)の各データセットにおける正確性をまとめています。Zero-shot-CoTは、6つの算数推論タスク(MultiArith、GSM8K、AQUA、SVAMP)のうち4つ、すべての象徴的推論、およびすべてのその他の論理的推論タスク(BIG-bench)で著しく優れています。例えば、Zero-shot-CoTはMultiArithで17.7%から78.7%へ、GSM8Kで10.4%から40.7%へのスコアの向上を達成しました。私たちの方法は、残りの2つの算数推論タスク(SingleEqおよびAddSub)において同等のパフォーマンスを提供しますが、これは多段階の推論を必要としないため予想される結果です。 常識推論タスクでは、Zero-shot-CoTはパフォーマンスの向上を提供しません。これは予想される結果であり、Chain of Thought (CoT)論文も、Few-shot-CoTでさえLambda(135B)でのパフォーマンスの向上を提供しないが、大幅に大きなPaLM(540B)モデルと組み合わせた場合にはStrategyQAを改善すると報告しています。これは私たちにも適用されるかもしれません。より重要なことに、多くの生成された思考の連鎖自体が驚くほど論理的に正確であるか、人間が理解できる間違いを含んでいることが観察されます(表3を参照) https://scrapbox.io/files/65c428be8c2f0100259557d3.png
これはZero-shot-CoTがタスクメトリクスが直接反映していない場合でもより良い常識推論を引き出すことを示唆しています。各データセットでZero-shot-CoTによって生成されたサンプルは、付録Bに提供されています。
他のベースラインとの比較
表2は、算数推論ベンチマーク(MultiArithおよびGSM8K)でのZero-Shot CoTとベースラインのパフォーマンスを比較しています。標準プロンプティング(1番目のブロック)と思考の連鎖プロンプティング(2番目のブロック)の間の大きなギャップは、これらのタスクが多段階の推論を引き出さない限り困難であることを示唆しています。InstructGPT(text-davinci-002)およびPaLM(540B)モデル(4番目のブロック)の両方で大きな改善が確認されています。Zero-shot-CoTは自然にFew-shot-CoTよりも劣りますが、タスクごとに8つの例を持つ標準のFew-shotプロンプティングを大幅に上回ります。GSM8Kにおいて、Zero-shot-CoTはInstruct GPT-3(text-davinci-002)を使用して、Wei et al.【2022】で報告されたファインチューニングされたGPT-3および大型モデル(PaLM、540B)を使用した標準の少数ショットプロンプティングも上回ります(3番目および4番目のブロック)。PaLMでのさらなる実験結果については、付録Dを参照してください。 https://scrapbox.io/files/65c42a27ec168f002591282a.png
ゼロショット推論においてモデルのサイズは重要か?
Figure 3は、MultiArith / GSM8Kで様々な言語モデルのパフォーマンスを比較しています。思考の連鎖推論なしでは、モデルのスケールが増加してもパフォーマンスは増加せず、またはゆっくりと増加するだけです、つまり、曲線は主にフラットです。
https://scrapbox.io/files/65c42b654dcaa400243541a6.png
対照的に、思考の連鎖推論を伴うパフォーマンスは、モデルのサイズが大きくなるにつれて劇的に増加します、オリジナル/Instruct GPT-3およびPaLMの場合です。モデルのサイズが小さい場合、思考の連鎖推論は効果的ではありません。この結果は、Wei et al.【2022】の少数ショット実験の結果と一致しています。付録Eは、GPT-2、GPT-Neo、GPT-J、T0、OPTを含むより多様な言語モデルを使用した広範な実験結果を示しています。また、生成された思考の連鎖の品質を手動で調査し、大規模モデルは明らかにより良い推論を示しています(各モデルのサンプル出力については、付録Bを参照してください)。
エラー分析
Zero-shot-CoTの振る舞いをよりよく理解するために、Instruct-GPT3でZero-shot-CoTプロンプティングによって生成されたランダムに選択された例を手動で調査しました。一部の観察には次のもうが含まれます:(1)常識推論(CommonsenseQA)では、Zero-shot-CoTは最終予測が正しくない場合でもしばしば柔軟で合理的な思考の連鎖を生成します。モデルがそれを1つに絞り込むのが難しいと判断した場合、Zero-shot-CoTはしばしば複数の回答選択肢を出力します(例については表3を参照)。(2)算数推論(MultiArith)では、Zero-shot-CoTとFew-shot-CoTはエラーパターンに関して大きな違いを示します。正確な予測を得た後に不要な推論ステップを出力する傾向があり、予測を間違ったものに変える結果になります。Zero-shot-CoTは時々、推論を開始せず、単に入力された質問を言い換えるだけです。対照的に、Few-shot-CoTは生成された思考の連鎖が三項演算を含む場合に失敗する傾向があります、例えば(3 + 2)* 4です。
プロンプト選択はZero-shot-CoTにどのように影響しますか?
私たちは、入力プロンプトに対するZero-shot-CoTの堅牢性を検証します。表4は、3つのカテゴリーを持つ16の異なるテンプレートを使用したパフォーマンスを要約しています。
https://scrapbox.io/files/657cd6f6c3f3750024e74178.png
具体的には、Webson and Pavlick【2022】に従い、カテゴリーには指導的(推論を促す)、誤解を招く(推論を抑制する、または間違った方法で推論を促す)、無関係(推論とは何の関係もない)が含まれます。結果は、テキストが思考の連鎖推論を促す方法で書かれている場合、パフォーマンスが向上することを示しています、つまり、テンプレートが「指導的」カテゴリ内にある場合です。しかし、正確さの違いは文によって大きく異なります。この実験では、「一歩ずつ考えよう。」が最良の結果を達成しました。興味深いことに、異なるテンプレートがモデルにかなり異なる推論を表現するよう促すことがわかります(各テンプレートによるサンプル出力については、付録Bを参照)。対照的に、誤解を招くまたは無関係なテンプレートを使用すると、パフォーマンスは向上しません。Zero-shot-CoTのためのより良いテンプレートを自動的に作成する方法は、依然として未解決の問題です。
プロンプト選択はFew-shot-CoTにどのように影響しますか?
表5は、異なるデータセットからの例を使用してFew-shot-CoTのパフォーマンスを示しています:CommonsenseQAからAQUA-RATおよびCommonsenseQAからMultiArithまで。両方のケースでドメインは異なりますが、前者の回答形式は同じです。驚くべきことに、異なるドメインからの思考の連鎖の例(常識から算数まで)が同じ回答(複数選択)形式を持つ場合、Zero-shot(AQUA-RATへ)に対するかなりのパフォーマンス向上を提供します。これは、Zero-shot-CoTまたはFew-shot-CoTからの可能な改善に対して相対的に測定されます。対照的に、異なる回答タイプを持つ例を使用すると(MultiArithへ)、パフォーマンスの向上はずっと少なくなり、以前の作業【Min et al., 2022】が示唆するように、LLMが主に文脈内のタスク自体ではなく、繰り返される形式を推測するために少数ショットの例を活用することを確認します。それにもかかわらず、両方のケースで結果はZero-shot-CoTより悪く、Few-shot-CoTにおけるタスク特有のサンプルエンジニアリングの重要性を確認しています。
https://scrapbox.io/files/65c42d74a4b9c50025024407.png
5 議論と関連研究
LLMの推論能力
複数の研究が、事前訓練されたモデルは通常推論が得意ではないことを示していますが、細かい調整または少数ショットプロンプティングによってステップバイステップの推論を生成させることで、その能力を大幅に向上させることができることが示されています(関連研究の要約については表6を参照)。ほとんどの先行研究とは異なり、私たちはゼロショットプロンプティングに焦点を当て、単一の固定トリガープロンプトが複雑なマルチホップ思考を要求する様々なタスクにわたってLLMのゼロショット推論能力を大幅に向上させることを示しています(表1)、特にモデルがスケールアップされた場合(Figure 3)。また、最終予測が間違っていても、多様なタスクにわたって合理的で理解可能な思考の連鎖を生成します(付録B)、Reynolds and McDonell【2021】のように、私たちの研究と同様に、「問題をステップに分けて解決しよう」というプロンプトが単純な算数問題でのマルチステップ推論を促進することを示しています。しかし、彼らはそれをタスク特有の例として扱い、ベースラインと比較して多様な推論タスクで定量的に評価しませんでした。Shwartz et al.【2020】は、常識の質問を一連の情報探索の質問に分解することを提案していますが、デモンストレーションを必要とせず、各推論タスクごとにかなりの手動プロンプトエンジニアリングが必要です。私たちの結果は、LLMが優れたゼロショット推論者であることを強く示唆していますが、以前の作業【Wei et al., 2022】は主に少数ショット学習とタスク特有の文脈内学習のみを強調しており、例えばゼロショットのベースラインは報告されていませんでした。私たちの方法は、時間を要する細かい調整や高価なサンプルエンジニアリングを必要とせず、事前訓練された任意のLLMと組み合わせることができ、すべての推論タスクに対する最強のゼロショットベースラインとして機能します。
LLMのゼロショット能力
Radford et al.【2019】は、LLMが読解、翻訳、要約を含む多くのシステム1タスクで優れたゼロショット能力を持っていることを示しています。Sanh et al.【2022】、Ouyang et al.【2022】は、モデルを指示に従うように明示的に微調整することで、LLMのゼロショット能力を向上させることができることを示しています。これらの作業はLLMのゼロショットパフォーマンスに焦点を当てていますが、私たちはシステム1タスクを超えた多くのシステム2タスクに焦点を当てており、フラットなスケーリング曲線を考慮するとLLMにとって大きな課題と考えられます。さらに、Zero-shot-CoTは指示チューニングと直交しており、Instruct GPT3、バニラGPT3、およびPaLMのゼロショットパフォーマンスを向上させます(図3を参照)。
狭義(タスク特化型)から広義(マルチタスク)プロンプティングへ
多くのプロンプトはタスク特化型です。少数ショットプロンプトは、タスク特化型の文脈内サンプル【Brown et al., 2020; Wei et al., 2022】により自然にそうなっていますが、ゼロショットプロンプトの大部分もタスクごとのエンジニアリング(テンプレートの)に焦点を当てています【Liu et al., 2021b; Reynolds and McDonell, 2021】。Chollet【2019】から借用した用語を使用し、知能の階層的モデル【McGrew, 2005; Johnson and Bouchard Jr, 2005】に基づいて構築されていますが、これらのプロンプトは、LLMから「狭義の一般化」またはタスク特化型のスキルを引き出していると言えます。一方、私たちの方法はマルチタスクプロンプトであり、「広義の一般化」またはLLM内の広範な認知能力、例えば論理的推論やシステム2自体を引き出します。私たちの研究が、LLMを使用した論理的推論研究だけでなく、LLM内の他の広範な認知能力の発見を加速するための参照点として機能することを願っています。
訓練データセットの詳細
この研究の制限は、LLMに使用される訓練データセットの詳細に関する公開情報の欠如です。例えば、GPTモデルの001対002、オリジナルのGPT3対InstructGPT【Ouyang et al., 2022】、およびPaLMモデルのデータ【Chowdhery et al., 2022】。しかし、最近の大型モデル(InstructGPT 001または002、オリジナルのGPT3、PaLM)すべてでゼロショットからZero-shot-CoTへの大幅なパフォーマンス向上と、算数および非算数タスクの両方での一貫した改善が示されているため、モデルが単に記憶しているだけではなく、タスク非依存のマルチステップ推論能力を捉えている可能性が高いです。ほとんどの結果はInstructGPTに基づいていますが、主要な結果はPaLMでも再現され、InstructGPTのデータセットの詳細(Ouyang et al.【2022】の付録A、B、F)も、それがマルチステップ推論のために特別に設計されていないことを確認しています。
制限と社会的影響
私たちの研究は、大規模言語モデルのためのプロンプティング方法に基づいています。LLMはウェブ上の様々なソースからの大規模なコーパスで訓練されており(「訓練データセットの詳細」も参照)、訓練データに見られる偏見を捉えて増幅することが示されています。プロンプティングは、様々なタスクに有効な言語モデルによって捉えられたパターンを利用しようとする方法であり、したがって同じ短所があります。このことを踏まえ、私たちのアプローチは、事前訓練されたLLM内の複雑な推論を直接探るより直接的な方法であり、以前の少数ショットアプローチでの文脈内学習の交絡因子を取り除き、LLM内の偏見のより偏りのない研究につながる可能性があります。
6 結論
私たちは、Zero-shot-CoT、大規模言語モデルから様々な推論タスクにわたって思考の連鎖を引き出す単一のゼロショットプロンプトを提案しました。これは、タスクごとに手作業で少数ショットの例を必要とする以前の作業での少数ショット(文脈内)アプローチとは対照的です。私たちのシンプルな方法は、LLMのスケーリング法則を長い間避けてきた困難なマルチステップシステム2推論タスクのための最小限で最強のゼロショットベースラインだけでなく、コミュニティに狭義のタスク特化型スキルではなく広範な認知能力を引き出す同様のマルチタスクプロンプトをさらに発見することを奨励します。